#datos intensivos

CODA-BENCH: Evaluación de agentes autónomos en tareas de datos

Evalúa agentes de código con CODA-BENCH: 1009 tareas en entornos de datos masivos. Solo el 61% de éxito actual. Descubre las brechas en inteligencia artificial.

2026-06-16 · 2 min